
103K「硬核」题,让大模型突破数学推理瓶颈
103K「硬核」题,让大模型突破数学推理瓶颈本文将介绍 DeepMath-103K 数据集。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。
本文将介绍 DeepMath-103K 数据集。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。
Benchmark 合伙人 Eric Vishria 最近跟 Banana Capital 合伙人 Turner Novak 在其播客 The Peel 做了一个非常精彩的对话,这是我最近觉得非常不错的一个访谈。
大幅缓解LLM偏科,只需调整SFT训练集的组成。
不仅是大模型本身,Meta 也要成为 AI 基建大厂。
如果去标记“得帆信息”——这家成立十年的软件公司历史,2025年春节,一定是个刻骨铭心的时间点。这本是个欢庆的时点,得帆信息的创始人&CEO张桐却忧心忡忡。他已经多年不写代码,却用美国AI Coding(AI编程)工具Cursor,花两天就写出一套网页版的CRM后,张桐得出结论:
值得买科技发布了自己的 MCP Server “海纳”,在 AI Agent 时代打造消费领域的基础设施。值得买在数据提供与适配方面有着丰富经验,在电商消费行业有着深刻积累,正是因为有了在垂直领域深耕的行业 know how,所以才有能力向行业提供高质量的、场景相关的数据内容。
今年苹果在 AI 上宣布的诸多所谓新功能,例如实时翻译、快捷指令等,并无太多革命性;至于视觉智能 (visual intelligence),不仅功能落后 Google Lens 六七年,交互体验上也远未达到一众 Android 友商的内置 AI/Agent 产品在 2025 上半年水平。
近日,硅基流动官方宣布已完成数亿元人民币 A 轮融资。此轮融资由阿里云领投,老股东创新工场等机构超额跟投,华兴资本担任独家财务顾问。硅基流动创始人袁进辉表示,在本轮融资帮助下,我们将继续加大研发投入,积极拓展海内外市场,努力早日成为开发者首选的生成式 AI 开发平台。
测试时扩展(Test-Time Scaling)极大提升了大语言模型的性能,涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么,什么是视觉领域的 test-time scaling?又该如何定义?
一个先相信、后看见的 AI 创业者。